24小时从零写一个GBA模拟器!GPT-5.5跑出53分登顶,Gemini得了0.8分,底部还有两家交白卷
24小时从零写一个GBA模拟器!GPT-5.5跑出53分登顶,Gemini得了0.8分,底部还有两家交白卷Mechanize 发布了一项硬核测试:给前沿 AI coding agents 24 小时,用 Rust 从零写一个完整的 Game Boy Advance 模拟器,再和顶级开源模拟器 Mesen2 逐帧对比打分。
搜索
Mechanize 发布了一项硬核测试:给前沿 AI coding agents 24 小时,用 Rust 从零写一个完整的 Game Boy Advance 模拟器,再和顶级开源模拟器 Mesen2 逐帧对比打分。
AI Coding的玩法,又变了。
欢迎大家尝试前不久GitHub的日榜榜首项目——Claude Context。通过在AI coding场景引入混合检索,Claude Context相比使用grep的原生 Claude Code 能大幅提升检索精度和效率,减少约 40% 的 不必要Token 消耗。
随着 AI coding agent 从 “辅助写代码” 走向 “直接执行开发操作”,模型开始被赋予修改代码、部署服务等真实运维权限。为减少频繁人工确认带来的打断,Anthropic 近期为 Claude Code 推出 Auto Mode,希望通过自动分类代替用户审核操作。
OpenAI宣布更新ChatGPT Pro与Plus订阅套餐,以更好地支持Codex(旗下AI Coding Agent)日益增长的使用需求。此次OpenAI新增每月100美元Pro版,该等级Codex的使用量是Plus版本的五倍,适合长时间、高强度的Codex会话。
编程智能体时代,顶流Cursor举旗发布新的评测基准——CursorBench,专门评价Cursor中不同模型谁更“智能体”(即高效执行复杂任务)。关于咋评的这个问题,Cursor还专门撰写了一篇博客。
2025年12月以前的AI编程,跟12月以后的AI编程完全是两码事了。这一最新判断,来自Vibe Coding的提出者Karpathy。作为最积极拥抱AI Coding的程序员代表人物之一,Karpathy甚至坦承:在去年12月之前,Coding Agent虽说也有亮眼表现,但实际上“基本没啥用”。
但考虑到在代码领域,如何做好记忆与检索,相比其他场景又有所不同,因此,基于 memsearch CLI ,我们同时也为Claude Code 做了个永久记忆的 plugin——memsearch ccplugin(可适用所有AI coding软件)。
代码运维一直是开发者的痛点,AI Coding 的飞速进步放大了运维难度:Claude Code 贡献的代码 push 已经占到了公开 Github 的 4%,但 AI 写的系统逻辑会有人类很难捕捉的问题,开发者将其称为“Claude Hole”现象。
这两天,一款名为Pony Alpha的模型,凭借在Coding能力上的出色表现,一时间成为了AI圈内最火爆的名字。